X-VLA: Transformador blando como modelo de visión-lenguaje-acción escalable en múltiples encarnaciones
Modelo de transformador suave: una solución escalable para modelar múltiples modalidades de visión-lenguaje-acción, optimizado para procesamiento y comprensión de datos multimodales en entornos visuales.